国产AV一区二区凹凸精品

OCR識別在檔案數(shù)字化運(yùn)用中的注意事項

發(fā)布時間：2019-01-05 閱讀量：63

手寫體檔案的識別率普遍較低。不宜進(jìn)行OCR識別。因此本文所述OCR的對象僅指印刷體檔案。要提高OCR識別率。關(guān)鍵應(yīng)注意以下幾點(diǎn)：

　　1.選擇較好的OCR軟件

　　目前市場上比較流行的OCR軟件很多，主要有清華文通、漢王、泰比等品牌。其中有些可以從網(wǎng)上下載免費(fèi)版本但功能很少，識別率很低。只有在圖像質(zhì)量非常好的情況下才能達(dá)到較高的識別率，稍有差池便錯誤百出，畢竟一分價錢一分貨。用在項目中還需謹(jǐn)慎再謹(jǐn)慎。還有的是掃描儀自帶的OEM軟件，如丹青、蒙恬等這樣的軟件往往功能較少，識別率較專業(yè)的OCR軟件要低。所以，對于檔案數(shù)字化過程中的批量OCR處理工作，若要用得省心、放心必須購買和使用專業(yè)的OCR軟件。建議使用清華文通專業(yè)OCR軟件，雖然要花點(diǎn)錢，但物有所值。

　　2.設(shè)置合適的掃描參數(shù)

　　檔案數(shù)字化若要進(jìn)行OCR處理，在前期掃描的時候就應(yīng)設(shè)置適合OCR識別的掃描參數(shù)。如果已經(jīng)掃描完畢再說要進(jìn)行OCR處理，就應(yīng)采用相關(guān)圖像處理軟件。如Photoshop等，先對圖像的參數(shù)進(jìn)行修改再OCR。合適的掃描參數(shù)能使圖像質(zhì)量更貼近于OCR識別的要求，OCR識別率自然會有很大程度的提高。

　　①分辨率的設(shè)定。分辨率太小，每英寸圖像上像素點(diǎn)太少，OCR軟件無法獲得足夠圖像信息，識別率當(dāng)然就不會高。但是，并不是分辨率越高，OCR識別率也越高。分辨率太高，特別是在使用一些存在輕微掃描失真的掃描儀時，由于紙張本身著墨不均勻，反而會把一些本應(yīng)連著的筆畫識別成幾段，造成識別錯誤。不僅不能提高識別率，還會使圖像文件變得很大，不利于存儲、處理和傳輸?！都堎|(zhì)檔案數(shù)字化技術(shù)規(guī)范》規(guī)定，需要進(jìn)行OCR漢字識別的檔案掃描分辨率建議選擇200-300dpi最佳。

　　但是在實際工作中，200dpi還是有點(diǎn)小，經(jīng)驗表明300dpi在OCR識別中最為合適。有的掃描軟件有一項“OCR掃描”直接將掃描分辨率鎖定為300dpi2色彩模式的選擇如果要進(jìn)行OCR識別，采用黑白二值模式掃描的圖像，其識別速度和正確率比灰度、24位真彩，C24模式掃描的圖像都要高。這是因為文本通常只用到黑白二色，過多的顏色只會變成干擾信息。

　　灰度模式在OCR中的應(yīng)用也比較廣泛。對于一些紙張發(fā)黃或文字字跡較淡的檔案，要對掃描后的圖像進(jìn)行處理，第一步可將色彩模式設(shè)置為灰度，將圖像劃分為不同的灰度級別，然后通過特定算法將某個灰度值以下的像素點(diǎn)都認(rèn)定為白色，其他為黑色從而達(dá)到黑白分明。一些紙張較薄甚至有點(diǎn)透明的檔案，OCR會受到背面文字的干擾而識別率降低。如果掃描時在紙張背面墊一張黑紙，并使用灰度掃描，效果會好很多。而采用24位真彩，C24模式掃描的圖像，由于顏色干擾信息太多，識別率往往不太理想。若要進(jìn)行OCR，最好先轉(zhuǎn)化為黑白二值或灰度模式再加以識別。

　 ?②亮度和對比度的調(diào)節(jié)

　　檔案由于年代久遠(yuǎn)，很多都會底色發(fā)黃、字跡變淡，掃描時設(shè)置灰度模式，并不能完全改善圖像質(zhì)量。若要進(jìn)一步提高OCR識別率，需改變更多參數(shù)，即調(diào)節(jié)亮度和對比度，且應(yīng)先調(diào)亮度再調(diào)對比度。亮度的設(shè)定以觀察掃描后的圖像中漢字的筆畫較細(xì)但又不斷開為原則。

　　③對于文字字跡。較淺、筆劃較細(xì)的檔案，可適當(dāng)降低亮度，文字字體較小、筆劃較粗的檔案，可適當(dāng)增加亮度。對于底色較深的檔案，如前文所提灰度模式掃描的圖像，可通過圖像處理軟件增加亮度，使圖像背景變成白色，同時去除了一些原有的污點(diǎn)。但調(diào)節(jié)亮度的同時，必然會使圖像中的文字一起變淡。這時便要增加圖像對比度使文字的顏色變深。

　　通過亮度和對比度的調(diào)節(jié)，可使圖像變得更加黑白分明，從而有利于OCR識別率的提高。

　　④對圖像進(jìn)行糾偏、去污處理

　　圖像中文字的偏斜，會極大地降低OCR識別率，筆者曾經(jīng)做過實驗，一張只是略微有點(diǎn)歪的圖像，其識別率比糾偏之后至少低了10%。而圖像中的污點(diǎn)，也很有可能被OCR錯誤識別為文字。因此，在OCR識別前，圖像必須經(jīng)過糾偏、去污處理，以提高識別率。通常，檔案掃描工作流程中必須具備圖像糾偏、去污這一環(huán)節(jié)，而無論其是否要進(jìn)行OCR。

　　⑤仔細(xì)進(jìn)行人工校對

　　無論電腦有多聰明，始終比不過人腦。因此，人工校對是提高OCR識別率的最后一關(guān)，也是最直接的環(huán)節(jié)。通常，OCR軟件識別完后會將原文用兩行顯示。一行是圖像，另一行是識別結(jié)果。一些OCR軟件。如文通OCR，會將不確定的文字用另一種顏色顯示出來，便于用戶發(fā)現(xiàn)錯誤。但實驗表明，很多情況下沒有變色的文字也會出錯，相反變了色的文字并不一定是錯的。因此，工作人員在校對時應(yīng)仔細(xì)，最好能通讀一遍，尤其注意字母和數(shù)字等較易出錯的地方，盡量不放過任何錯誤。

　　當(dāng)然，人工校對是建立在OCR識別率本身就已很高的基礎(chǔ)上的，它只是一個提高OCR識別率的補(bǔ)充環(huán)節(jié)。否則過多的人工校對只會降低檔案數(shù)字化工作的效率使OCR變得與手工錄入無異。

只有將OCR技術(shù)運(yùn)用得恰到好處，才不至于浪費(fèi)人力物力，才能使檔案信息資源的利用價值達(dá)到最大化，更好地服務(wù)于民。

更多檔案數(shù)字化設(shè)備詳情咨詢“成都吉福匯”，400-028-4366/028-85538251

上一條：高拍儀給我們帶來的各種好處

下一條：有多少人了解成者書刊掃描儀呢？返回

中文字幕亚洲一区人妻,亚洲天堂精品在线观看,成人中文字幕不卡,日韩精品嘿嘿嘿视频

首頁

解決方案

產(chǎn)品中心

技術(shù)服務(wù)

關(guān)于我們

OCR識別在檔案數(shù)字化運(yùn)用中的注意事項

解決方案

產(chǎn)品中心

技術(shù)服務(wù)

關(guān)于我們

成都總部

貴州分公司

服務(wù)熱線